Hadoop中的NameNode好比是人的心脏,非常重要,绝对不可以停止工作。在hadoop1时代,只有一个NameNode。如果该NameNode数据丢失或者不能工作,那么整个集群就不能恢复了。这是hadoop1中的单点问题,也是hadoop1不可靠的表现。如下图所示,便是hadoop1.0的架构图
在hadoop2中新的NameNode不再是只有一个,可以有多个(目前只支持2个)。每一个都有相同的职能。 一个是active状态的,一个是standby状态的。当集群运行时,只有active状态的NameNode是正常工作的,standby状态的 NameNode是处于待命状态的,时刻同步active状态NameNode的数据。一旦active状态的NameNode不能工作,通过手工或者自 动切换,standby状态的NameNode就可以转变为active状态的,就可以继续工作了。这就是高可靠。 在这里,2个NameNode的数据其实是实时共享的。
Zookeeper集群搭建
solrcloud&zookeeper集群搭建
Zookeeper 是 一个分布式。开放源码的分布式应用程序协调服务,是Google Chubby的一个开源实现,大多数的分布式应用都需要Zookeeper的支持,这篇文章先简单的和大家分享如何搭建一个zookeeper集群。(笔 者注:Chubby是一个lock service,通过这个lock service可以解决分布式中的一致性问题。为这个lock service的实现是一个分布式的文件系统)。
机器规格CPU:2个四核2~2.5GHzCPU内存:8~16GBECCRAM(非ECC会产生校验和错误)存储器:4*1TSATA硬盘(硬盘大小一般是数据量的3—5倍)网络:千兆以太网PS:namenode一般采用64位硬件,避免32位机java堆3g限制具体规格情况跟数据量有关。
Apache Nutch是一个用于网络搜索的开源框架,它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。
hadoop和spark集群的搭建,主要用到了hadoop2.5.2、spark1.2.0、scala2.11.4
环境:Win7系统装虚拟机虚拟机VMware-workstation-full-9.0.0-812388.exeLinux系统Ubuntu12.0.4JDKjdk-7u17-linux-i586.tar.gz搭建步骤:首先在win系统装虚拟机,执行VMware-workstation-full-9.0.0-812388.exe;其次需要在虚拟机上装Ubuntu12.0.4;安装完成Ubuntu12.0.4之后,需要安装JDK,(注意:安装JDK需要处理一些其他问题,JDK必须是Linux版本的,还有就是JDK要和操作系统的位数相符合,比如32位、64位都有对应的安装包):JDk的安装路径
Hadoop集群搭建文档
【集群节点】 —————————————————————————————————————————————— unbuntu-master 192.168.77.81 namenode|jobtracker unbuntu-slaveone 192.168.77.82 datanode|tasktracker unbuntu-slavetwo 192.168.77.83 datanode
Hadoop平台集群搭建
自从activemq5.9.0开始,activemq的集群实现方式取消了传统的Master-Slave方式,增加了基于zookeeper+leveldb的实现方式,其他两种方式:目录共享和数据库共享依然存在。本文主要阐述基于zookeeper和leveldb搭建activemq集群,这里需要特别提醒,本文实现的集群仅提供主备功能,避免单点故障,没有负载均衡功能。
我们把提供相同应用的服务器组称之为一个quorum,quorum中的所有机器都有相同的配置文件。其中server.X代表组成整个服务的机器,当服务启动时,会在数据目录下查找这个文件myid,这个文件中存有服务器的号码。下面会讲myid文件的配置。
Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。
虚拟机环境克隆
分布式集群系统安装伪分布模式安装比较简单,集群模式是在伪分布模式基础上进行修改的,所以伪分布模式安装必须搞定。以下是操作步骤1.确定集群的结构由于SecondaryNameNode是执行合并任务的,内存占用特别大,所以单独一台大内存的节点。以上4个ip可以是单独的物理机,也可以是虚拟机。生产环境中,一般是物理机。假设各节点安装的linux版本完全一致。
直接用机器搭建Hadoop集群是一个相当痛苦的过程,尤其对初学者来说。他们还没开始跑wordcount,可能就被这个问题折腾的体无完肤了....而且也不是每个人都有好几台机器对吧...你可以尝试用多个虚拟机搭建...前提是你有个性能杠杠的机器...
Cloudera Manager 5.3 提供了单用户模式,从而满足了对些类环境的要求。在单用户模式中,Cloudera Manager Agent 和所有由 Cloudera Manager 所管理服务运行的进程作为单个配置的用户和组启动。在系统上运行的 Hadoop 进程之间,单用户模式确定 Hadoop 与系统其他部分(隔离以外)之间的隔离的优先级。